期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于双特征和松弛边界的随机森林进行异常点检测
胡淼, 王开军
计算机应用    2019, 39 (4): 956-962.   DOI: 10.11772/j.issn.1001-9081.2018091966
摘要423)      PDF (1029KB)(372)    收藏
针对现有基于随机森林的异常检测算法性能不高的问题,提出一种结合双特征和松弛边界的随机森林算法用于异常点检测。首先,在只使用正常类数据构建随机森林的分类决策树过程中,在二叉决策树的每个节点里记录两个特征的取值范围(每个特征对应一个值域),以此双特征值域作为异常点判断的依据。然后,在进行异常检测时,当某样本不满足决策树节点中的双特征值域时,该样本被标记为候选异常类;否则,该样本进入决策树的下层树节点继续作特征值域的比较,若无下层节点则被标记为候选正常类。最后,由随机森林算法中的判别机制决定该样本的类别。在5个UCI数据集上进行的异常点检测实验结果表明,所提方法比现有的异常检测随机森林算法性能更好,其综合性能与孤立森林(iForest)和一类支持向量机(OCSVM)方法相当或更好,且稳定于较高水平。
参考文献 | 相关文章 | 多维度评价
2. 回归模型中哑变量的相对重要性指数
李海超, 王开军, 胡淼, 陈黎飞
计算机应用    2017, 37 (11): 3048-3052.   DOI: 10.11772/j.issn.1001-9081.2017.11.3048
摘要851)      PDF (819KB)(626)    收藏
为在回归模型中描述定性属性,通常需要引入哑变量。对含哑变量的回归方程,提出描述不同哑变量在回归方程中不同重要程度的方法。该方法分解出含哑变量的回归方程中哑变量部分和非哑变量部分的回归平方和,计算这两部分在该回归方程中所起作用的占比,将该占比设计为各哑变量在回归方程中的相对重要程度指数。在近10万笔的Lending Club和Prosper网络借贷数据集上,所进行的挖掘借款用途对借款成功率、信用等级对借款利率的影响程度的实验结果表明,与传统回归方程仅提供哑变量前的系数却不能展现其重要程度相比,所提方法展现出不同哑变量的不同重要程度,为定量分析回归方程中定性自变量对因变量的影响程度提供了重要的手段。
参考文献 | 相关文章 | 多维度评价